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高 校园 书馆 复杂 网 络 攀 建 与 智慧 化 应 用 探索 


E 施 国良 WFF bA 
! 河 海 大 学 商学 院 ”南京 211100 “ 河 海 大 学 图 书馆 ”南京 211100 


HE: [目的 /意义 ] 高校 图 书馆 信息 化 水 平 高 ,但 数据 挖 握 与 智慧 化 水 平 有 竺 提升。 复杂 网 络 以 图 数据 库 
为 存储 和 图 查询 的 载体 ,对 图 结构 数据 进行 统一 组 织 和 挖 气 。 图 嵌入 、 图 算法 技术 相 较 于 传统 机 器 学 习 方 法 能 


够 充分 挖掘 图 结构 数据 中 的 隐 含 联系 。 本 研究 运用 复杂 


网 络 技术 融合 多 源 数据 ,探索 图 嵌入 技术 、 图 算法 等 图 


结构 数据 挖掘 方法 在 提升 图 书馆 智慧 化 水 平 中 的 作用 。[ 方法/ 过程 ] 首先 基于 可 获取 的 数据 进行 数据 特征 分 
析 与 清洗 ;其 次 结合 数据 特征 构建 复杂 网 络 概念 模型 ,采用 Neo4j 批量 导入 技术 实现 网 络 构建 和 存储 ;最 后 探索 
图 算法 、 图 谈 入 技术 在 图 结构 数据 挖 振 中 的 应 用 。[ 结 果 / 结 论 ] 以 图 结构 融合 多 源 数据 构建 图 书馆 复杂 网 络 ， 
并 以 图 数据 库 作 为 存储 介质 。 图 算法 与 图 嵌入 技术 在 在 用 户 画像 分 析 、 精 准 推荐 、 智 能 问答 等 图 书馆 智能 化 应 


车 方面 具有 独特 优势 。 
-一 关键 词 : 复杂 网 络 ”图 数据 库 图 算法 ”图 谈 入 
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智慧 图 书馆 


2016 年 《国家 十 三 五 规划 岗 要》 以 及 2017 年 《 政 
ESO EAE) EAE ERU TTE ES GE S EPI 
多 下 于 机 器 学 习 深度 学 习 、 知 识 图 谱 等 方面 的 研究 愈 
发 者 烈 ,企业 也 迅速 跟 进 。 人 工 智能 的 迅速 发 展 主 要 
得 尊 于 数据 收集 和 计算 能 力 的 提升 以 及 深度 学 习 、 机 
器 党 习 等 数据 挖掘 方法 的 快速 发 展 。 在 大 数据 和 人 工 
智能 技术 迅速 发 展 的 背景 下 ,图 书馆 服务 也 由 信息 化 
向 智能 化 转变 ”。 综 合 运 用 人 工 智 能 技术 ,积极 探索 


B 


| 


图 书 管理 与 服务 中 。1994 年 ,瑞典 恩 舍 尔 欧 维 克 市 
图 书馆 使 用 工业 机 器 人 对 图 书 进行 接收 、 分 类 和 登 
记 中 。 自 助 图 书馆 在 中 国 各 地 落地 ,首都 图 书馆 建设 
街区 自助 图 书馆 ,应 用 RFID 技术 的 小 型 自助 图 书馆 于 
东莞 市 落地 ,可 为 市 民 提 供 全 天 图 书 借 还 服务 ”: 。 智 
能 参考 咨询 机 器 人 如 上 海 交通 大 学 图 书馆 的 “小 交 ”， 
不 仅 可 提供 信息 服务 还 能 够 与 读者 进行 自主 聊天 5 。 
虽然 图 书馆 智能 化 应 用 水 平 还 有 待 提升 ,但 是 这 些 应 
用 对 于 图 书 资源 使 用 效率 和 图 书馆 服务 水 平 提升 具有 


* E 


图 看 馆 服务 方 面 的 智能 化 应 用 ,有 助 于 进一步 满足 读 


者 需求 .提高 图 书馆 资源 使 用 效率 和 服务 效用 。 
目前 ,图 书馆 的 大 数据 分 析 与 智能 化 应 用 水 平 难以 


满足 用 户 精准 推荐 .知识 服务 等 需求 ”。 本 研究 结合 区 
书馆 大 数据 ,运用 图 数据 库 技术 构建 复杂 网 络 ,并 探索 
图 算法 .图 脱 入 技术 在 用 户 画 像 .推荐 系统 与 智能 问答 等 
图 书馆 智能 化 应 用 领域 的 作用 。 将 复杂 网 络 、 图 数据 库 、 
图 算法 .图 僚 入 等 技术 引入 图 书馆 数据 分 析 和 挖掘 中 ,有 
助 于 图 书馆 更 好 地 服务 于 读者 ,提升 资源 使 用 效率 。 


1 研究 现状 


1.1 图 书馆 智能 化 服务 领域 
20 世纪 70 年 代 以 来 ,智能 化 技术 逐渐 被 应 


用 于 


促进 作用 。 

在 大 数据 与 智能 化 背景 下 ,图 书馆 信息 化 程度 不 
断 提高 ,读者 与 系统 的 交互 数据 不 断 增 长 ,新 兴 的 数据 
挖掘 方法 不 断 引入 图 书馆 服务 与 应 用 中 ,但 是 图 书馆 
在 信息 化 向 智能 化 过 渡 中 依然 面临 较 大 的 挑战 。 一 
方面 ,图 书馆 智慧 服务 需要 专业 化 的 人 才 以 及 大 量 的 
资金 支持 。 专 业 人 才 擅 长 运用 技术 手段 提升 图 书馆 服 
务 质量 ,图 书馆 信息 化 向 智慧 化 转变 的 科研 探索 离 不 
开 资 金 支持 。 另 一 方面 ,图 书馆 在 现 有 数据 的 收集 与 
服务 管理 上 也 存在 缺陷 。 数 据 是 智能 化 应 用 的 基石 ， 
图 书馆 在 采集 和 管理 大 数据 需要 大 量 的 软件 .硬件 设 
施 作 为 保障 ,数据 采集 和 使 用 需要 遵守 规范 ,需要 注意 
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保护 用 户 隐 私 .不 得 损害 用 户 权 利 。 图 书馆 作为 知识 、 
学 习 与 交流 中 心 , 运 用 新 兴 的 数据 挖 据 技术 以 及 人 工 
智能 方法 来 提升 服务 水 平和 资源 利用 效率 的 价值 巨 
大 。 本 研究 运用 复杂 网 络 和 图 数据 库 技术 以 图 结构 融 
合 图 书馆 多 元 异 构 数据 ,结合 图 脱 入 技术 将 实体 向 量 
化 以 进行 智慧 化 应 用 ,探索 图 书馆 智能 化 道路 中 技术 
方面 的 可 能 途径 。 
1.2 复杂 网 络 与 图 数据 库 领域 

网 络 在 自然 界 和 人 类 社会 中 普遍 存在 ,如 社交 网 
络 、 因 特 网 .电力 网 络 、 航 空 网 络 等 ,复杂 网 络 是 对 普遍 
存在 的 网 络 现象 及 其 复杂 性 进行 解释 的 一 门 学 科 , 通 


图 书馆 数据 挖掘 水 平 , 从 而 提升 智能 化 服务 水 平 。 
2 研究 设计 

复杂 网 络 旨 在 将 图 书馆 借阅 数据 整合 为 相互 联系 
的 数据 网 络 , 基 于 关联 数据 网 络 的 数据 挖掘 相 较 于 表 
存储 结构 的 数据 挖掘 效果 显著 ,可 在 网 络 结构 分 析 的 
基础 上 提高 智能 化 应 用 水 平 。 图 书馆 复杂 网 络 构建 的 
流程 为 :中 确定 复杂 网 络 涉及 的 数据 边界 和 数据 需求 ; 
@ 对 各 类 抽取 数据 进行 特征 分 析 , 结 合 复杂 网 络 概念 
模型 明确 数据 的 清洗 规则 ; ;@ 按 照 确定 的 数据 清洗 规 
则 对 数据 进行 清洗 ,同时 要 注意 读者 隐私 的 保护 ; 引 应 


常 表现 出 小 世界 特性 、 层 次 特性 、 自 组 织 特性 等 。 吴 
智 勤 等 基于 社交 网 络 分 析 对 高 校 图 书馆 进行 用 户 画像 
分 析 研 究 "。 冯 昔 等 提出 在 图 书馆 个 性 化 推荐 中 融入 
复 加 网 络 理论 。 赵 鹏 等 在 自然 语言 处 理 领域 运用 复 
多 网 络 特征 进行 文档 关键 词 抽 取 ""。 翟 东升 等 在 专 
积 乔 识 库 构建 中 使 用 到 图 数据 库 " 。 李 莽 等 在 复杂 
网 绚 环 境 中 展开 信任 传递 分 析 研 究 '” 。 复 杂 网 络 理 
论 及 研究 方法 在 图 书馆 数字 资源 整合 .引文 网 .科研 合 
作 网 等 方面 部 有 广泛 的 应 用 "”。 李 德 毅 等 发 现在 探 
SK 的 心智 和 思维 机 理 的 研究 中 复杂 网 络 等 理论 的 研 


E 要 意义 。 
〇 复杂 网 络 依托 于 图 数据 库 进 行 存储 和 应 用 ,其 数 
据 存储 结构 和 数据 的 查询 方式 都 是 以 图 论 为 基础 的 。 
Neo4j 作为 应 用 最 为 广泛 的 企业 级 图 数据 库 采 用 属性 
图 模型 实现 ,以 节点 .关系 为 基础 数据 结构 能 够 描述 绝 
大 部 分 图 的 使 用 场景 。 基 于 图 数据 库 技术 的 数据 分 析 
和 挖掘 在 诸多 领域 已 有 成 熟 应 用 ,如 银行 与 保险 业 运 
用 图 数据 库 进行 反 欺 诈 模 型 研究 ; 领 英 公 司 运 用 图 数 
据 库 构 建 社交 关系 网 络 实现 关系 推荐 。 物 流行 业 结合 
运输 网 络 和 图 算法 进行 网 络 结构 优化 ,降低 运输 成 本 
等 55 。 随 着 图 数据 库 技术 的 不 断 进步 ,不 仅 实现 关联 
网 络 的 存储 ,还 集成 诸多 经 典 图 算法 ,如 社区 发 现 算 
法 .中 心性 算法 .路 径 规 划 等 。 图 论 算法 将 有 助 于 对 网 
络 结构 进行 深入 分 析 和 研究 。 图 嵌入 技术 将 网 络 结构 
中 的 节点 映射 为 低 维 稠密 向 量 , 进 一 步 拓宽 了 图 结构 
数据 挖掘 的 手段 29 。 综 合 运用 复杂 网 络 和 图 数据 库 
融合 多 源 数据 ,针对 关联 数据 的 分 析 和 挖掘 能 够 提升 


用 Neo4j 图 数据 库 批 量 导入 技术 实现 节点 和 关系 的 对 
应 构建 ,@3 对 批量 导入 完成 的 图 数据 库 进 行 日 志 检 查 ， 
并 对 数据 库 进 行 索引 和 查询 优化 ;@ 在 构建 和 优化 的 
复杂 网 络 上 探索 智能 化 应 用 。 如 图 1 Bron: 


x 读者 及 图 书 zs 
L 数据 获取 H x H 数据 清洗 | 


Y 
借阅 关系 网 络 | EXE | | me | 
Neo4j 批量 导入 
| 应 用 探索 构建 dcum 


图 1 图 书馆 复杂 网 络 构建 流程 


复杂 网 络 由 众多 的 节点 和 关系 相互 关联 组 成 , 底 
层 的 概念 模型 设计 决定 复杂 网 络 的 结构 ,网 络 结构 的 
设计 应 综合 考虑 应 用 场景 和 图 数据 库 性 能 。 本 研究 结 
合 图 书信 息 数据 .读者 信息 数据 .读者 借阅 数据 构建 复 
杂 网 络 。 概 念 模型 的 设计 主要 是 基于 两 个 原则 :其 一 
是 能 够 表征 整个 关系 网 络 ;其 二 是 使 图 数据 库 子 图 查 
询 的 效率 达到 最 优 。Neo4j 图 数据 库 的 底层 存储 具有 
以 下 特征 :中 包含 节点 和 关系 ;@) 节 点 和 关系 均 有 属 
性 ; 咏 节 点 包含 有 一 个 或 多 个 标签 ,关系 仅 有 一 种 类 
型 ;@ 关 系 有 向 ,从 节点 指向 另 一 节点 。 网 络 结构 可 
抽象 为 读者 、 图 书 \ 作 家 等 实体 通过 借阅 关系 、 写 作 关 系 
等 构成 的 一 张 网 络 ,复杂 网 络 概念 模型 如 图 2 所 示 : 


作者 编号 ;作者 名 


T 


出 版 社 ; 人 库 时 间 等 


图 书 A 


借 书 量 ; 读者 类 型 等 


借 出 时 间 ; 还 书 时 间 
总 天 数 ; 和 请 期 等 


2 复杂 网 络 概念 模型 
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3 ”复杂 网 络 构 建 过 程 


3.1 数据 来 源 
本 研究 的 数据 源 是 A 图 书馆 图 书 借阅 系统 ,数据 
的 原始 存储 形式 为 Oracle 关系 型 数据 库 。 数 据 表 是 按 
照 现 有 系统 的 使 用 流程 进行 设计 ,存在 数据 分 离 、 元 
余 、 类 型 多 样 等 情况 。 本 研究 借助 图 数据 库 技术 实现 
表 存 储 结构 数据 向 关联 网 络 结构 数据 转化 ,并 基于 图 
算法 以 及 图 藤 入 技术 等 针对 图 数据 进行 分 析 和 挖掘 。 
数据 主要 由 3 部 分 构成 ,读者 信息 主要 包括 读者 姓名 、 
专业 年 级 等 ;图 书信 息 包括 名 称 ` 分 类 号 作者、 出 版 
年 等 ;图 书 借阅 数据 包括 时 间 浏览 记录 借阅 记录 等 。 
抽取 年 份 范围 为 2008 - 2018 年 , 共 涉 及 34 张 数据 表 。 

32a 数据 清洗 
三 借阅 网 络 概念 模型 的 设计 充分 考虑 到 借阅 网 络 的 


表征 能 力 以 及 复杂 网 络 在 查询 使 用 中 的 效率 ( 见 图 
2) 。Neo4j 图 数据 库 本 身 的 底层 存储 结构 分 为 节点 和 
关系 两 类 ,因此 需要 实现 原始 数据 从 表 存 储 结构 到 
存储 结构 的 转化 。 关 系 型 数据 库 中 表 存 储 结构 在 描述 
某 个 复杂 关联 关系 时 会 涉及 多 表 操 作 以 及 深层 查询 ， 
查询 操作 效率 远 低 于 图 查询 。 复 杂 网 络 的 节点 与 关系 
层次 结构 见 图 3。 整 个 复杂 网 络 分 为 节点 和 关系 ,站 
点 包含 读者 ,图书 、 作 者 ;关系 包含 借阅 写作。 每 个 节 
点 都 有 属性 .主键 以 及 标签 , 如 读者 节点 中 存储 了 学 
号 ` 姓 名 性别 ,学院 ,总 借 书 量 .信用 情况 .读者 类 型 等 
属性 ,其 中 作为 主键 的 学 号 是 节点 的 唯一 标识 ,节点 可 
以 拥有 多 个 标签 ;每 条 关系 同样 可 以 存储 属性 以 及 类 
型 。 基 于 此 实现 表 结 构 向 图 结构 数据 的 转化 ,在 关联 
关系 分 析 中 能 够 充分 发 挥 图 数据 挖掘 的 优势 。 


© 图 书 借阅 复杂 网 络 
© 节点 关系 
| " "M - 作者 fü 写作 
© Y Y Y i 
CERT ID:ID(Reader, ||M ISBN:ID(Book), AUTHOR ID:ID(Author, | | :START ID(CERT ID), | | :START ID(AUTHOR ID), 
c9 NAME, M_TITLE, M_AUTHOR, :END_ID(M_ISBN), :END_ID(M_ISBN), 
N SEX, IN_DATE, :LABEL LEND DATE, :TYPE 
DEPT, CALL_NO, RET_DATE, 
eo TOTAL LEND QTY, ||M PUBLISHER, EXCD DAYS, 
DEBT FLAG, M PUB YEAR, TOTAL TIME, 
CN REDR TYPE CODE, ||TOTAL CIRC, TYPE 
mm BOOK NUM LEVEL, ||BOOK CIRC LEVEL, 
> :LABEL :LABEL 
Bum 
H- 
>< 图 3 复杂 网 络 节 点 、 关 系 、 属 性 
3.87 复杂 网 络 的 构建 与 存储 neo4j-import 
" ' --multiline- fields-true 


己 复 杂 网 络 是 关系 型 数据 库 经 过 数据 清洗 之 后 , 按 
照 先 合 模 型 进行 图 结构 转化 而 成 的 。 图 数据 库 数据 导 
人 有 多 种 方式 ,包括 Cypher create 语句 、Cypher load csv 
语句 、Java APT, neo4j -import , neo4j -apocload 等 ,使 用 


--bad-tolerance=1000 

--into D:\software\neo4j-community-3.4.0\data\databases\Lib0818.db 
--id-type string 

--nodes E:\library\F inal_ lib\final\create\reader.csv 

--nodes E:\library\F inal_lib\final\create\book.csv 

--nodes E:\library\F inal_ lib\final\create\auth.csv 

--relationships ElibrarWFinal_lib\finalvcreate\borrow.csv 
--relationships E\library\Final lib\final\create\write.csv 


neo4j import 工具 将 整理 好 的 CSV 文件 导入 进 库 ,速度 
能 达到 12 万 (节点 + 关系 )/s, 并 且 资 源 占 用 少 。 
neo4j import 工具 批量 导入 命令 见 图 4。 批 量 导 入 过 程 
共 耗 时 19s 949ms ,成 功 导 入 715 682 节点 、1 146 925 
关系 以 及 2 861 027 属性 。 

批量 导入 完成 后 会 在 指定 路 径 下 生成 Lib0818. db 
图 数据 库 。Neo4j 图 数据 库 集 成 可 视 化 前 端 。 开 局 
Neo4j 服务 ,修改 配置 文件 中 数据 库 的 位 置 ,然后 在 浏 
览 器 端 输 入 网 址 (http://localhost:7474/browser/ ) 能 
连接 指定 数据 库 并 实现 查询 和 可 视 化 操作 。 整 个 复杂 
网 络 由 节点 和 边 组 成 , 边 与 节点 相互 关联 构成 联系 紧 
密 的 关系 网 络 。 根 据 图 2 所 述 的 概念 模型 进行 复杂 网 
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图 4  neo4j-import 批量 导入 命令 


络 建 模 ,对 Oracle 数据 库 中 的 表 结 构 数据 进行 抽取 、 特 
征 分 析 清洗 整理 CSV 文件 ,使 用 neo4j import 工具 进 
行 数据 的 批量 导入 ,图 数据 库 的 查询 和 可 视 化 操作 在 
前 端 页 面 实现 。 见 图 5。 
3.4 图 数据 库 优化 

最 大 化 地 发 挥 图 数据 库 的 优势 ,需要 对 数据 进行 
更 加 细致 的 划分 ,深度 标签 化 ;以 图 结构 关联 多 源 数 
据 , 基 于 关联 数据 网 络 能 够 挖掘 更 多 的 信息 价值 ;数据 
量 越 大 越 能 够 挖 据 出 复杂 网 络 中 更 隐 上 用 的 关联 关系 。 
图 数据 库 作 为 复杂 网 络 存储 和 应 用 的 载体 ， 需 要 保证 
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效率 最 优 。Cypher 语言 是 Neo4j 图 数据 库 查 询 语 
营 不 仅 使 得 查询 语句 易于 理解 而 且 查询 性 能 达到 最 
优 呈 查询 优化 方面 可 参考 以 下 5 点 措施 0251 :深度 标 
m uc 

索引 和 约束 Cypher 语句 见 图 6;@ 避 免 箔 卡尔 积 

,避免 查询 非 预 期 结果 ;@ 查 询 性 能 分 析 , 使 用 
m d eh 
优 亚 ,模型 定义 清晰 、 查 询 匹配 迅速 等 
Ev. constraint on (a:BOOK ) assert a.ISBN is unique 


constraint on (a:Reader) assert a.C ERT. ID is unique 
que on (a:Author) assert a. AUTHOR ID is unique 


cri index on :Author(NAM E) 
© index on :BOOK(TITLE) 
Create index on :Reader(NAM E) 


© 图 6 ”索引 和 约束 Cypher 语句 


4 ”复杂 网 络 应 用 探索 


复杂 网 络 实现 了 数据 的 融合 ,图 算法 与 图 嵌入 将 
基于 图 数据 进行 分 析 和 挖掘。 复杂 网 络 技术 能 够 将 多 
元 异 构 数 据 进 行 整合 ,对 来 源 不 同 .标准 不 同 的 数据 进 
行 统一 管理 ,使 数据 挖 气 起 到 “1 +1 >2” 的 效果 。 图 结 
构 数据 的 分 析 和 挖 据 主要 可 采用 图 算法 与 图 庶 和 技术 
两 种 思路 。 图 算法 如 社区 发 现 算法 .PageRank 等 ;图 内 
入 技术 将 网 络 中 的 节点 表示 为 低 维 稠密 向 量 ,使 得 机 
器 学 习 , 深 度 学 习 在 网 络 结构 挖掘 中 发 挥 作用 。 复 杂 
网 络 与 多 源 数据 的 关系 类 似 于 “超市 货架 与 仓库 ”的 
关系 ,将 多 种 数据 用 关联 关系 进行 整合 ,充分 发 挥 图 数 
据 引擎 和 图 论 算法 以 及 图 柑 入 在 网 络 结构 数据 挖 气 中 
的 作用 。 在 图 书馆 大 数据 中 运用 复杂 网 络 融 合 读者 个 


图 5  neo4j 图 数据 库 前 端 页 面 


人 信息 ,浏览 记录 读者 借阅 记录 等 多 元 数据 进行 综合 
分 析 能 够 增进 系统 对 用 户 的 了 解 ,精准 把 握 读 者 属性 
与 偏好 ,能 够 充分 运用 到 用 户 画 像 \ 个 性 化 推荐 以 及 知 
识 问答 等 智慧 化 服务 领域 。 

4.1 用 户 画 像 

用 户 画 像 是 一 种 从 海量 数据 中 获取 的 、 由 用 户 信 
息 构 成 的 形象 集合 ”。 用 户 画 像 研究 有 利于 图 书馆 
精确 把 握 读者 需求 ,在 提升 图 书馆 服务 质量 精准 营销 
等 活动 中 具有 重要 价值 ” 。 图 书馆 拥有 大 量 用 户 、 图 
P 交互 等 数据 资源 ,能 充分 利用 数据 挖掘 技术 对 数据 
进行 组 织 ` 分 析 和 挖掘, 融合 读 考 相关 的 多 源 数据 构建 
关联 数据 之 上 的 读者 虚拟 画像 ~ 。 关 联 数据 涵盖 更 
全 面 的 读者 信息 能 够 帮助 精准 提取 用 户 标签 ,更 加 精 
准 地 刻画 读者 形象 。 

图 书馆 场景 下 用 户 画 像 存 在 以 下 问题 :数据 本 喘 
存在 稀 玻 与 分 离 ,缺乏 与 外 部 数据 进行 互联 互通 ;数据 
挖掘 方法 对 单一 数据 源 进行 分 析 和 挖掘 ,未 融合 多 源 
数据 充分 利用 数据 的 关联 性 。 复 杂 网 络 将 “数据 孤 
岛 ” 进 行 关联 ,融合 多 源 数 据 进 行 统一 组 织 与 分 析 , 能 
够 挖掘 单一 数据 源 难 以 发 现 的 多 源 数 据 间 的 关联 关 
系 。 图 7 展示 的 是 图 书馆 数据 融合 下 读者 用 户 画 像 的 
提取 思路 ,多 源 数据 不 仅 包括 读者 的 个 人 属性 信息 、 
书 属性 信息 ,还 包括 读者 每 次 借阅 行为 产生 的 记录 、 浏 
览 查询 记录 等 。 网 络 结构 采用 图 算法 进行 分 析 和 挖 
掘 , 在 用 户 画 像 应 用 中 读者 个 人 与 外 部 信息 相互 关联 
构成 网 络 ,运用 社区 发 现 算法 可 以 实现 用 户 的 聚 类 , 运 
用 中 心性 算法 (如 PageRank ) 可 实现 读者 节点 影响 力 
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图 二 情报 三 作 
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分 析 等 。 除 了 Neo4j 图 数据 库 内 部 集成 相应 的 图 算 
法 ,开源 库 ( 如 APOC) 也 能 够 辅助 实现 图 算法 。 在 数 
据 关联 的 情况 下 运用 图 算法 进行 网 络 结构 数据 挖掘 ， 
能 够 更 加 准确 把 握 读者 之 间 的 潜在 关联 与 特征 。 


读者 用 户 画 像 ; 


E 


* 读 者 基本 属性 : 
姓名 、 性 别 、 年 龄 、 城 市 等 
* 读者 社会 属性 
专业 、 年 级 、 


级 、 成 绩 等 
* 读 者 阅读 偏好 
偏好 书籍 类 型 、 借 书 频次 、 
借阅 时 长 、 借 阅 周期 等 

* 读 者 行为 偏好 


浏览 记录 、 查 询 记 录 、 闸 机 
信息 等 


图 7 基于 多 源 数 据 融合 的 读者 用 户 画像 分 析 


[o 


4.5 个 性 化 推荐 
号) 传统 的 图 书 推荐 系统 以 协同 过 滤 以 及 基于 内 容 的 
推荐 为 主 ,协同 过 滤 算法 是 基于 用 户 对 物品 的 评分 相 
侯 度 进行 推荐 ,喜爱 相似 物品 的 用 户 群 体 具有 相近 的 
偏好 ,然而 大 多 高 校 图 书馆 缺乏 读者 对 图 书 的 打分 数 
握 倪 包含 借阅 数据 ;由 于 读者 的 专业 、 学 院 以 及 图 书 的 
Xen] 分 类 号 等 属性 相对 稳定 ,基于 内 容 的 推荐 难以 实 
现 动态 的 千 人 千 面 的 推荐 列表 。 个 性 化 推荐 在 不 
所 说 应 用 领域 中 有 着 不 同 的 特点 ,高 校 图 书馆 图 书 推 
荐 莫 有 以 下 特点 :推荐 对 象 为 图 书 ,图 书 覆 盖 面 广 且 以 


将 节点 向 量化 ,通过 节点 的 相似 度 计 算 就 能 够 实现 请 
多 应 用 ,其 中 最 典型 的 就 是 个 性 化 推荐 。 实 体 散 入 极 
大 地 丰富 了 网 络 结构 数据 挖掘 的 方法 ,向 量化 表示 的 
图 结构 能 够 运用 更 为 灵活 的 机 器 学 习 以 及 深度 学 习 方 


法 而 不 仅仅 局 限于 图 算法 。 


SERO 
于 相似 阅读 篇 好 的 推荐 


于 书籍 类 萄 的 推荐 


到 书 D 


8 基于 规则 的 复杂 网 络 推荐 策略 


4.3 智能 问答 

在 人 工 智 能 等 技术 日 益 发 展 的 背景 下 ,问答 系统 
是 图 书馆 智能 化 参考 咨询 问答 服务 的 技术 基础 。 
传统 检索 采用 的 是 字符 串 匹 配 与 排序 算法 相 结 合 的 方 
式 将 相关 的 信息 网 页 展示 给 用 户 ,智能 问答 是 机 器 基 
于 对 问题 的 理解 直接 给 出 准确 答案 。 知 识 图 谱 作 为 知 
识 的 载体 成 为 问答 系统 的 基础 ,除了 通用 型 知识 库 如 
DBpedia , YAGO „Freebase 等 ,领域 知识 库 具有 细 粒 度 、 


合 芭 书籍 居多 ;服务 群体 以 师 生 为 主 ,群体 稳定 且 专 业 
化 究 度 高 .易于 聚 类 。 现 阶段 高 校 图 书馆 的 推荐 系 
统 怎 在 个 性 化 程度 低 、 数 据 收集 . 控 所 不 充分 的 特点 。 
人 基于 复杂 网 络 的 图 书 推荐 服务 策略 有 以 下 两 种 ; 
基于 子 图 查询 与 自 定义 规则 进行 推荐 ;@@ 基 于 图 嵌 
入 的 方式 进行 实体 向 量化 ,根据 实体 相似 性 进行 推荐 。 
基于 子 图 查询 与 规则 的 方式 的 优点 在 于 实时 动态 扒 
荐 .缓解 冷 启动 .规则 灵活 .推荐 结果 可 解释 性 好 以 及 
用 户 体验 好 等 。 基 于 规则 的 复杂 网 络 推荐 策略 见 图 
8 ,根据 同一 作者 的 书籍 进行 相似 性 推荐 .基于 图 书 的 
分 类 号 分 析 实现 基于 内 容 的 推荐 .以 及 发 现 阅读 偏好 
相近 的 其 他 读者 的 阅读 列表 实现 聚 类 推荐 等 。 但 是 人 
工 定义 规则 难以 适用 于 所 有 场景 而 且 在 大 规模 复杂 网 
络 中 计算 复杂 度 高 ,难以 保证 效率 ,而 图 嵌入 技术 将 网 
络 结构 中 的 节点 映射 为 低 维 稠密 向 量 并 基于 向 量化 的 
实体 进行 推荐 。 目 前 很 多 科技 公司 的 推荐 系统 都 采用 
图 嵌入 技术 进行 大 规模 推荐 29 ,各 种 图 嵌入 技术 研究 
还 在 不 断 延伸 , 目前 成 熟 的 算法 包含 DeepWalk"" 、 
node2Vec SSDNEU* LINE!” To ME H BE HACEN 
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高 质量 ,推理 复杂 的 特点 。 图 书馆 大 数据 构建 领域 知 
识 库 并 以 图 数据 库 技术 将 知识 存储 起 来 ,能 够 作为 知 
识 库 辅 助 实现 智能 咨询 。 

目前 问答 系统 实现 方案 主要 有 两 种 :基于 图 匹 
配 的 方式 。 将 自然 语言 中 的 语义 关系 表示 成 图 ,从 而 
将 自然 语言 问 句 转 化 为 子 图 匹配 的 问题 ”。 以 复杂 
网 络 为 知识 库 载 体 的 基于 图 匹配 实现 的 知识 问答 流程 
见 图 9: 首 先 对 自然 语言 问 句 进行 处 理 ,抽取 其 中 的 实 
体 ;其 次 根据 实体 的 类 型 匹配 相应 的 问题 模板 ,将 原 问 
题 转化 为 子 图 查询 语句 ;最 后 使 用 生成 的 查询 语句 对 
知识 库 进 行 查 询 , 并 将 查询 结果 返回 给 用 户 。 由 于 自 
然 语 言语 法 多 样 .表达 复杂 ,基于 子 图 匹配 的 方式 实现 
准确 的 实体 查找 需要 大 量 的 标记 数据 和 人 工 定 义 规 
则 ,不 利于 扩展 。@) 基 于 向 量化 表示 的 问答 对 匹配 方 
式 。 向 量化 表示 节点 不 仅仅 适用 于 推荐 等 应 用 ,同样 
适用 于 知识 问答 。 准 备 QA 数据 集 用 于 训练 节点 和 关 
系 的 向 量化 表示 ,将 答案 和 问 句 映射 到 同一 向 量 空间 
中 。 问 句 与 回答 的 匹配 仅 需 要 计算 向 量化 表示 后 的 两 
个 向 量 的 相似 度 ,而 不 需要 考虑 问 句 的 语法 与 句法 等 。 
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此 方法 在 通用 知识 图 谱 的 智能 问答 相关 的 研究 中 已 经 
取得 较 大 进展 ””。 知 识 库 问答 的 另 一 种 实现 方式 
是 图 结构 的 向 量化 表示 ,如 节点 的 向 量化 .路径 的 向 量 
化 以 及 子 图 的 向 量化 ,运用 向 量 间 的 相似 度 计算 实现 
知识 问答 。 蕴 含 更 多 信息 的 向 量化 表示 能 够 更 加 精准 


地 回答 问题 。 
问题 自然 语言 处 理 查询 模板 答案 
C Auhen >~ OERA TREOES" 
Hm matchí(a:Author)-]:write]- AL. 
VER LÀ (b:BOOK) “ 苏 曼 殊 作品 ” 


林语堂 写 过 什么 书 叶 CC Write D whereaNAME= “林语堂 ' 站 Eid 


return b. TITLE 
f. e dene 


9. 基于 图 匹配 的 智能 问答 


一 本 研究 基于 A 图 书馆 图 书 借阅 以 及 读者 和 图 书信 
息 又 据 构建 复杂 网 络 ,使 用 图 数据 库 实现 复杂 网 络 的 
存储 和 查询 ,并 基于 此 探索 复杂 网 络 数据 挖 气 在 个 性 
推荐 ,用户 画像 .智能 问答 等 智能 化 方面 的 应 用 。 本 
光 丽 主要 贡献 可 以 概括 为 :复杂 网 络 能 够 实现 图 书 
馆 多 平台 大 数据 融合 ,将 来 源 不 同 ,标准 不 同 的 数据 进 
律 王 接 和 整合 ,实现 统一 管理 与 组 织 ,使 数据 挖掘 起 到 
"Egi >2" 的 效果 。@ 运 用 图 数据 库 技术 实现 复杂 网 
颖 固 造 的 完整 流程 。 网 络 结构 数据 普遍 存在 ,复杂 网 
乡 阐 建 技术 具有 普遍 适用 于 关联 数据 网 络 ,基于 网 络 
结 本 分 析 的 应 用 都 可 以 借鉴 此 构造 流程 。 轩 探索 图 庶 
/图 算 法 等 网 络 结 构 数据 挖掘 方法 在 图 书馆 复杂 网 
络 肾 析 中 的 应 用 。 本 研究 将 网 络 结构 技术 用 于 用 户 画 
像 : 推 荐 系统 与 智能 问答 等 图 书馆 智能 化 应 用 领域 中 。 
ERRAZ O .图 数据 库 技术 .图 符 入 、 图 算 
法 等 新 型 技术 在 图 书馆 大 数据 挖掘 中 的 作用 ,对 于 推 
动 图 书馆 服务 智能 化 发 展 具有 重要 意义 。 

本 研究 的 局 限 性 在 于 :复杂 网 络 包括 的 数据 仅 
仅 只 是 图 书馆 大 数据 的 一 部 分 。 若 融合 多 平台 图 书馆 
大 数据 统一 管理 和 挖 气 ,能 够 更 好 地 服务 于 用 户 。@ 
研究 数据 存在 缺失 .元 余 等 情况 ,同时 考虑 到 用 户 隐私 
问题 和 用 户 权 益 不 可 侵犯 ,获取 数据 时 对 涉及 用 户 隐 
私 的 字段 例如 :“ 身 份 证 ”“ 联 系 方式 ” 等 采用 屏蔽 以 及 
脱 敏 处 理 ,防止 数据 的 滥用 和 过 度 控 掘 。@@ 本 研究 提 
出 的 图 嵌入 与 图 算法 等 网 络 结构 挖掘 方法 缺乏 实验 验 
证 ,这 也 将 是 后 续 研 究 的 方向 。 近 两 年 ,各 学 科 、 各 科 
研 院 所 以 及 企业 在 机 器 学 习 、 深 度 学 习 、 知 识 图 谱 等 人 
工 智能 方面 的 研究 正如 火 如 茶 地 展开 ,图 书馆 也 从 信 
息 化 向 智能 化 转变 。 当 下 图 书馆 信息 化 建设 水 平 高 ， 
读者 与 图 书馆 交互 数据 充分 ,积极 运用 数据 挖掘 、 人 工 
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The Construction and Intelligent Applications of Complex Network in University Library 
Shi Guoliang! Xie Zeyu Yang Xiaoli" 
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Co Abstract; [ Purpose/significance ] The informatization level of university libraries is high, but the level of data 
mining and intelligence needs to be improved. The complex network uses graph database as the carrier of storage and graph 
qler to organize and mine graph structure data. Compared with traditional machine learning methods, graph embedding 
and graph algorithm techniques can discover hidden connections in graph. This study uses complex network to integrate 
multi source data and explores the role of graph data mining methods such as graph embedding and graph algorithms in im- 
poing library intelligence level. [ Method/process | First of all, this study clarifies and analyzes the characteristics of 
the data based on the available data. Secondly, combined with the characteristics of data, construct a complex network 
conceptual model, and use Neo4j batch import technology to realize network construction and storage. Finally, explore the 
ap 人 aiion of graph algorithm and graph embedding technology in graph structure data mining. | Result/ conclusion | The 
multi -source data is combined with the graph structure to construct the complex network of the library , and the graph data- 
base is used as the storage medium. Graph algorithm and graph embedding technology have unique advantages in user im- 
age analysis, accurate recommendation, intelligent QA , and other intelligent applications of the library. 


Keywords. complex network graph database graph algorithms graph embedding intelligent library 
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